有關 PySpark 的那些事


環境設定

  • JAVA_HOME: 設定 JAVA 的路徑
  • SPARK_HOME: 設定 SPARK 的路徑
  • PYSPARK_DRIVER_PYTHON: 設定 Driver 的 python 路徑
  • PYSPARK_PYTHON=python3: 設定 Driver 的 python 版本
    • 遇到的 Error: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions
  • HOSTIP: 如果是用 cluster mode 的話需要設定。

Hadoop

  • 如果是使用 Hadoop 作為檔案系統的話,處理檔案可能需要 hadoop client。






你可能感興趣的文章

[演講筆記] 突破學習困境與職涯瓶頸的行動指南 - 學習長阿康 : 我的人生策略與學習方法論

[演講筆記] 突破學習困境與職涯瓶頸的行動指南 - 學習長阿康 : 我的人生策略與學習方法論

JavaScript 的函式(Function)

JavaScript 的函式(Function)

相見恨晚的 chrome 插件 — Octotree - GitHub code tree

相見恨晚的 chrome 插件 — Octotree - GitHub code tree






留言討論